聚类是无监督学习中无处不在的工具。大多数现有的自我监督表示方法通常基于视觉上的特征聚类样本。尽管这对于基于图像的自我审视非常有效,但它通常会失败,因为视频需要理解运动而不是专注于背景。将光流作为与RGB的互补信息可以减轻此问题。但是,我们观察到,两种观点的幼稚组合并不能带来有意义的收益。在本文中,我们提出了一种结合两种观点的原则方法。具体而言,我们提出了一种新颖的聚类策略,在该策略中,我们将每个视图的初始群集分配作为指导其他视图的最终群集分配。这个想法将对这两种视图强制执行类似的群集结构,并且形成的簇在语义上是抽象的,并且对来自每个单独视图的嘈杂输入。此外,我们提出了一种新颖的正则化策略来解决特征崩溃问题,这在基于聚类的自学学习方法中很常见。我们的广泛评估表明,我们学到的表示对下游任务的有效性,例如视频检索和动作识别。具体来说,我们在UCF上胜过7%,在HMDB上胜过4%,用于视频检索,而在UCF上的最高状态为5%,而HMDB则在HMDB上进行视频分类6%
translated by 谷歌翻译